ÇeVeri - Klasik Veri Setleri
Giriş
Yayla takımı olarak ÇeVeri’yi kullanarak oluşturduğumuz, doğal dil işleme çalışmalarında sıklıkla kullanılmaları sonucu birer standart haline gelmiş, toplamda 21 adet veri setini Türkçe’ye kazandırmanın ve geliştiricilerle paylaşmanın gururunu yaşıyoruz.
Türkçe Doğal Dil İşlemeye Sunulan Katkı
ÇeVeri’yi kullanarak Türkçe’ye kazandırdığımız veri setleri toplam 34 eşsiz görev üzerinde kullanılmakta olup toplamda 473MB’ın üzerinde alan kaplamaktadır. Çevrilen veri seri setleri arasında bilgisayarlı biyoloji (computational biology), görsel açıklama (image captioning), duygu tespiti (emotion recognition) gibi daha önce Türkçe veri barındırmayan alanlarda kullanılan veri setleri de yer almaktadır. Tüm bunlarla birlikte, Türkçe doğal dil işlemeye kazandırdığımız veri setleri, etki faktörü yüksek konferanslarda ve dergilerde yayınlanmış, seçkin kurumlar tarafından hazırlanmış ve akademide ve endüstride birer standart ve temel haline gelmiş veri setleri arasından seçilmiştir.
Gelecek Planlarımız ve Hedeflerimiz
ÇeVeri - Klasik Veri Setleri girişimimizin ilk basamağında Türkçe doğal dil işlemeye 21 adet veri seti kazandırarak güzel bir başlangıç yapmış olduğumuzu düşünsek de bu sayının yeterli olmadığı kanaatindeyiz. Gelecek planlarımız arasında varlık ilişkilendirme (entity linking), kod üretimi (code generation), bilgi grafikleri (knowledge graphs) gibi görevler üzerine odaklanan veri setlerini Türkçeye kazandırarak bu sayıyı arttırmak yer alıyor.
SQuAD 2.0
Kullanıldığı Görevler: Question Answering, Question Generation
Yayınlandığı Makale: SQuAD: 100,000+ Questions for Machine Comprehension of Text
Yayınlandığı Yıl: 2016
Yayınlandığı Konferans: EMNLP
Aldığı Atıf Sayısı: 4801
Nicelik: +100 bin soru
Boyut: +72MB
Geliştirici Kurum: Stanford Üniversitesi
IMDB Movie Reviews
Kullanıldığı Görevler: Text Classification, Sentiment Analysis, SQL Parsing
Yayınlandığı Makale: Learning Word Vectors for Sentiment Analysis
Yayınlandığı Yıl: 2011
Yayınlandığı Konferans: ACL
Aldığı Atıf Sayısı: 3806
Nicelik: +50 bin film incelemesi
Boyut: +85MB
Geliştirici Kurum: Stanford Üniversitesi
CoLA
Kullanıldığı Görevler: Linguistic Acceptability, Text Generation
Yayınlandığı Makale: Neural Network Acceptability Judgments
Yayınlandığı Yıl: 2019
Yayınlandığı Konferans: TACL
Aldığı Atıf Sayısı: 568
Nicelik: +10500 cümle
Boyut: +500KB
Geliştirici Kurum: New York Üniversitesi + Facebook AI
CNN Stories
Kullanıldığı Görevler: Abstractive Text Summarization, Document Summarization, Seq-to-Seq Language Modeling, Question Answering, Text Summarization, Extractive Text Summarization, Summarization
Yayınlandığı Makale: Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond
Yayınlandığı Yıl: 2016
Yayınlandığı Konferans: CONLL
Aldığı Atıf Sayısı: 1800
Nicelik: +39 bin makale
Boyut: +175MB
Geliştirici Kurum: Montreal Üniversitesi + IBM Watson
DailyDialog
Kullanıldığı Görevler: Emotion Recognition in Conversation
Yayınlandığı Makale: DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset
Yayınlandığı Yıl: 2017
Yayınlandığı Konferans: IJCNLP
Aldığı Atıf Sayısı: 642
Nicelik: +13 bin diyalog
Boyut: +6.7MB
Geliştirici Kurum: Hong Kong Politeknik Üniversitesi + Saarland Üniversitesi
ATIS
Kullanıldığı Görevler: Intent Detection, Slot Filling, Semantic Parsing, SQL Parsing
Yayınlandığı Makale: The ATIS Spoken Language Systems Pilot Corpus
Yayınlandığı Yıl: 1990
Yayınlandığı Konferans: HLT
Aldığı Atıf Sayısı: 716
Nicelik: +4750 cümle
Boyut: +3.8MB
Geliştirici Kurum: Texas Instruments
SICK
Kullanıldığı Görevler: Semantic Textual Similarity, Semantic Similarity, Natural Language Inference
Yayınlandığı Makale: A SICK Cure for the Evaluation of Compositional Distributional Semantic Models
Yayınlandığı Yıl: 2014
Yayınlandığı Konferans: LREC
Aldığı Atıf Sayısı: 885
Nicelik: +4900 cümle
Boyut: +1.9MB
Geliştirici Kurum: Trento Üniversitesi
DROP
Kullanıldığı Görevler: Question Answering
Yayınlandığı Makale: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
Yayınlandığı Yıl: 2019
Yayınlandığı Konferans: NAACL
Aldığı Atıf Sayısı: 384
Nicelik: +96 bin soru cevap çifti
Boyut: +64MB
Geliştirici Kurum: Kaliforniya Üniversitesi, Irvine + Washington Üniversitesi + Allen Institute for Artificial Intelligence
ROCStories
Kullanıldığı Görevler: Question Answering, Emotion Classification
Yayınlandığı Makale: A Corpus and Cloze Evaluation for Deeper Understanding of Commonsense Stories
Yayınlandığı Yıl: 2016
Yayınlandığı Konferans: NAACL
Aldığı Atıf Sayısı: 434
Nicelik: +100 bin hikaye
Boyut: +13MB
Geliştirici Kurum: Rochester Üniversitesi + Microsoft Research + Virginia Tech
COPA
Kullanıldığı Görevler: Question Answering, Zero-Shot Learning, Text Generation
Yayınlandığı Makale: Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning
Yayınlandığı Yıl: 2011
Yayınlandığı Konferans: AAAI
Aldığı Atıf Sayısı: 246
Nicelik: 1000 soru cevap çifti
Boyut: +248KB
Geliştirici Kurum: Indiana Üniversitesi + Güney Kaliforniya Üniversitesi
ActivityNet Captions
Kullanıldığı Görevler: Dense Video Captioning, Video Captioning, Natural Language Moment Retrieval
Yayınlandığı Makale: Dense-Captioning Events in Videos
Yayınlandığı Yıl: 2017
Yayınlandığı Konferans: ICCV
Aldığı Atıf Sayısı: 687
Nicelik: 100 bin açıklama (caption)
Boyut: +8MB
Geliştirici Kurum: Stanford Üniversitesi
BIOSSES
Kullanıldığı Görevler: Sentence Embeddings for Biomedical Texts, Semantic Similarity
Yayınlandığı Makale: BIOSSES: a Semantic Sentence Similarity Estimation System for the Biomedical Domain
Yayınlandığı Yıl: 2017
Yayınlandığı Konferans: Bioinformatics
Aldığı Atıf Sayısı: 108
Nicelik: 100 cümle
Boyut: +29KB
Geliştirici Kurum: Boğaziçi Üniversitesi + Yapı Kredi Teknoloji
Boolean Questions
Kullanıldığı Görevler: Question Answering
Yayınlandığı Makale: BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
Yayınlandığı Yıl: 2019
Yayınlandığı Konferans: NAACL
Aldığı Atıf Sayısı: 252
Nicelik: +15 bin soru cevap çifti
Boyut: +9MB
Geliştirici Kurum: Washington Üniversitesi
ChemProt
Kullanıldığı Görevler: Relation Extraction
Yayınlandığı Makale: -
Yayınlandığı Yıl: -
Yayınlandığı Konferans: -
Aldığı Atıf Sayısı: -
Nicelik: 1820 makale
Boyut: +2MB
Geliştirici Kurum: BioCreative
Conceptual Captions
Kullanıldığı Görevler: Image Captioning
Yayınlandığı Makale: Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning
Yayınlandığı Yıl: 2018
Yayınlandığı Konferans: ACL
Aldığı Atıf Sayısı: 721
Nicelik: 20 bin açıklama (caption)
Boyut: +12MB
Geliştirici Kurum: Google AI
GoEmotions
Kullanıldığı Görevler: Text Classification, Emotion Classification
Yayınlandığı Makale: GoEmotions: A Dataset of Fine-Grained Emotions
Yayınlandığı Yıl: 2020
Yayınlandığı Konferans: ACL
Aldığı Atıf Sayısı: 150
Nicelik: +58 bin örnek
Boyut: +4MB
Geliştirici Kurum: Stanford Üniversitesi + Google Research + Amazon Alexa
Hate Speech Detection Dataset
Kullanıldığı Görevler: Text Classification
Yayınlandığı Makale: Hate Speech Dataset from a White Supremacy Forum
Yayınlandığı Yıl: 2018
Yayınlandığı Konferans: WS
Aldığı Atıf Sayısı: 224
Nicelik: 10 bin cümle
Boyut: +1MB
Geliştirici Kurum: Vicomtech
HoC
Kullanıldığı Görevler: Document Classification
Yayınlandığı Makale: Automatic Semantic Classification of Scientific Literature According to the Hallmarks of Cancer
Yayınlandığı Yıl: 2016
Yayınlandığı Konferans: Bioinformatics
Aldığı Atıf Sayısı: 58
Nicelik: 1852 yayın özeti (publication abstact)
Boyut: +1MB
Geliştirici Kurum: Cambridge Üniversitesi + Karolinska Enstitüsü
Jester
Kullanıldığı Görevler: Action Recognition, Action Classification
Yayınlandığı Makale: Eigentaste: A Constant Time Collaborative Filtering Algorithm
Yayınlandığı Yıl: 2001
Yayınlandığı Konferans: Information Retrieval Journal
Aldığı Atıf Sayısı: 2078
Nicelik: 158 farklı şakanın 6.5 milyon oylaması
Boyut: +3MB
Geliştirici Kurum: Kaliforniya Üniversitesi, Berkeley
LIAR
Kullanıldığı Görevler: Fake News Detection
Yayınlandığı Makale: “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection
Yayınlandığı Yıl: 2017
Yayınlandığı Konferans: ACL
Aldığı Atıf Sayısı: 1122
Nicelik: 13 bin bildiri/açıklama
Boyut: +1MB
Geliştirici Kurum: Kaliforniya Üniversitesi, Santa Barbara
OpenBookQA
Kullanıldığı Görevler: Question Answering
Yayınlandığı Makale: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering
Yayınlandığı Yıl: 2018
Yayınlandığı Konferans: EMNLP
Aldığı Atıf Sayısı: 247
Nicelik: 6 bin çoktan seçmeli soru cevap
Boyut: +5MB
Geliştirici Kurum: Heidelberg Üniversitesi + Allen Institute for Artificial Intelligence